什么是灾难恢复?新手指南

多种类型的灾难都可能导致关键系统离线、办公室和数据中心受损,或导致正常业务运营所需的数据库和应用程序暂时无法使用。灾难恢复计划是企业快速恢复其最重要系统和应用程序的流程和技术路线图,以便企业能够在恢复其他系统和应用程序的同时恢复工作。

什么是灾难恢复?新手指南

灾难恢复简介

灾难恢复 (DR) 包括企业在发生破坏性事件后恢复其计算工作负载的技术计划,以及在灾难发生前测试策略的方法。在灾难恢复计划中,工作负载按重要性排序。企业的目标是最大限度地减少计算停机时间和数据丢失,同时平衡每个工作负载的成本。

虽然灾难恢复长期以来一直是 IT 运营的重要组成部分,但云计算和为互联网设计的软件架构正在降低实施全面灾难恢复计划的成本和工作量。

定义和概述

灾难恢复是指企业在因操作员错误、渎职、软件错误、自然灾害或其他灾难导致意外停机后,为使重要 IT 系统恢复运行而采取的政策、技术和预算。在发生中断之前,企业需要确定哪些关键任务应用程序必须在灾难发生后立即恢复,并将其他应用程序按重要性分组(称为层级)。然后,他们需要确定企业可以承受每个应用程序的停机时间和数据丢失量,并据此制定 IT 策略。

灾难恢复的重要性

灾难恢复非常重要,因为破坏性事件导致的意外停机可能导致重大财务损失——据行业估计,每小时约 10 万美元。长时间的停机还会损害品牌声誉,并导致监管机构的谴责或处罚。在一些监管严格的行业,包括金融服务、能源和医疗保健,公司需要以比传统备份数据副本更快的速度恢复数据和计算操作。

在紧急服务和医疗保健等领域,意外停机也可能导致生命损失。如果发生灾难性事件(如飓风、龙卷风或地震),那么所有服务都面临风险。信息能否流向需要的地方以拯救生命?

灾难恢复的基本概念

有两个关键的灾难恢复指标:恢复时间目标 (RTO),衡量系统可以保持离线状态的最长时间;恢复点目标 (RPO),衡量企业可以承受的数据丢失量,与备份或复制的频率相关。对于这两个指标,阈值越短越好,但成本也越高。IT 组织通常会为其运行的每个系统设置 RTO 和 RPO,从而让他们能够平衡成本和关键性。

灾难恢复是一个成熟的实践领域,但更多地使用云服务与所谓的“试点”部署相结合,即使用实时、最新的数据和备用服务来重启云数据中心的系统,可以帮助规划人员以更少的资金提供出色的 RTO 和 RPO 指标。这是因为云提供商在每个基础设施层都投资了冗余,从而实现了自动和半自动故障转移和恢复过程。这些是他们的客户不再需要进行的投资。此外,试点部署可以将恢复服务所需的时间缩短到几分钟。

有关基于云的 DR 部署的更多信息即将发布。

灾害类型

许多类型的灾难都会影响 IT 系统,包括网络攻击、硬件故障、自然灾害和人为错误导致的中断。有些灾难是可以预见的。例如,所有组织都可能成为网络攻击的目标。有些公司位于飓风、地震和洪水等自然灾害更容易发生的地方。人为错误是常有的事。

这项工作就是当出现问题时做好反应的准备。

计划外中断是指系统或服务中意外中断,导致停机和正常运营中断。这些中断可能由于刚刚讨论的因素而发生,并可能对企业造成严重后果,包括收入损失、声誉受损、客户满意度下降,甚至生命损失。制定恢复计划至关重要,以最大限度地减少计划外中断的影响并确保快速恢复服务。

灾难恢复与高可用性

高可用性技术可在集群中的节点或集群服务器之间复制数据,以便它们可以相互故障转移并保持工作负载运行,从而确保非常高的 IT 服务水平。这些技术旨在消除单点故障,并且通常由保证正常运行时间百分比的服务级别协议支持。在云计算中,高可用性保护物理基础设施,包括电源、冷却、存储、网络和服务器。应用程序级负载平衡软件也有助于确保高水平的正常运行时间。

另一方面,灾难恢复可防止多点故障,旨在在极端中断(例如地震或飓风导致设施瘫痪)后将关键工作负载恢复到运行状态。灾难恢复站点通常在地理位置上彼此相距甚远。

高可用性和 DR 技术都应该是全面业务连续性计划的一部分。

灾难恢复的目标

灾难恢复计划的主要目标是确保业务部门在危机期间能够继续工作。灾难恢复计划包括快速重启计算服务以及限制数据和资金损失的流程。它们还旨在满足管理业务连续性和数据保留的监管要求。

恢复时间目标 (RTO) 和恢复点目标 (RPO)

灾难恢复计划的两个主要指标是恢复时间目标 (RTO) 和恢复点目标 (RPO)。企业运行的每个系统可能具有不同的 RTO 和 RPO 要求,具体取决于 IT 部门与相关业务部门之间的服务水平协议。

对于每个应用程序或服务,RTO 是计划外中断后允许的最大停机时间,而 RPO 衡量企业愿意容忍的最大数据丢失量。阈值越短/越小越好,但通常成本更高。IT 组织可以为其运行的每个系统设置 RTO 和 RPO,以平衡成本和关键性。

制定灾难恢复计划

DR 计划包括对灾难事件的潜在风险、可能造成的运营损害、员工和外部利益相关者可能受到的影响以及可能由此造成的财务损失或监管罚款的全面评估。

作为制定灾难恢复计划的一部分,公司需要确定执行发起人和受影响的团队;编目可能在灾难期间受损的物理和 IT 资产;并考虑对客户、供应商、合作伙伴和其他利益相关者的潜在影响。

IT 部门需要决定哪些工作负载可以从备份中恢复,哪些工作负载需要实时数据和以较低容量运行的服务,哪些工作负载需要满负荷运行。在某些情况下,停机的活动系统将自动切换到备用系统,从而将停机时间降至最低,并且不会丢失任何数据。在其他情况下,切换将是手动的。IT 团队将希望选择备份站点并制定一个计划,让他们能够快速重启应用程序。云计算在这里大有帮助。企业还需要寻找可能阻碍重启运营的 IT 依赖关系——一个离线应用程序阻止另一个应用程序重新上线的情况。

除了这些技术方面之外,高管领导和业务部门还应制定紧急沟通和响应计划,并对员工进行灾难恢复计划培训,通过桌面测试或演练进行测试和演练,并不断改进。

风险评估和恢复目标

每个 DR 计划都应包括可能中断业务运营的事件的风险评估、可能受影响的应用程序的影响分析以及由此造成的财务损失的估计。业务影响分析应包括每个应用程序的 RTO 和 RPO。然后,企业可以决定其恢复计划,并选择在哪里以更高的成本换取更短的恢复时间和恢复点目标。

备份和恢复策略

备份和恢复方法根据性能成本不同而有所差异,包括以下几种:

  • 离线备份具有更高的 RPO,但在勒索软件攻击期间可能是唯一的选择
  • 试点部署可以在几分钟内(而不是几小时)将系统恢复到工作状态,但比简单的备份更昂贵,维护起来也更困难
  • 热备用方法,将实时数据与以较低容量运行的云中应用程序副本相结合
  • 主动/主动故障转移方法,即多个实时站点以满负荷运行以实现恢复时间,并且恢复点接近于零,是最昂贵的灾难恢复策略,尽管现代软件架构和数据管理策略可以帮助控制成本,并可能带来其他好处,包括提高可扩展性

计划测试和合规性

仅创建 IT 清单、确定应用程序层和映射依赖关系是不够的。为了使 DR 达到企业期望的水平,从操作系统到应用程序的每种技术都需要冗余。DR 的成功还取决于定期测试,无论是桌面演练(利益相关者口头执行步骤),还是 IT 部门将采取的措施的实际演练以及仅在灾难期间使用的系统组件的测试。

财务报告和数据保护法规也会影响灾难恢复计划。例如,美国企业财务报告法规《萨班斯-奥克斯利法案》规定了数据保留要求。美国《健康保险流通与责任法案》(HIPAA)要求在灾难期间制定电子健康信息应急计划,欧盟《通用数据保护条例》(GDPR)则规定在灾难期间公民的个人数据必须可用。

DRaaS 的优势和用例

灾难恢复即服务 (DRaaS) 是一种云服务,可让企业在公共云或混合云中运行应用程序,并在云提供商的设施而不是本地数据中心制定 DR 计划。基于云的 DRaaS 产品可让公司在云区域之间远程转换计算、数据库和应用程序负载,并自动执行恢复业务系统所需的步骤,而无需重新架构它们或使用专门的管理软件。至关重要的是,云提供商的 DRaaS 解决方案应专为备用区域的高可用性而设计,以确保服务在灾难事件期间可访问且正常运行。

企业可以使用云中的 DR 来规划在自然灾害破坏基础设施或网络事件(例如勒索软件攻击,导致本地网络资源访问被切断)后恢复数据。由于数据可以存储在区域云中,因此该策略可以符合 GDPR 等数据保护法规。当预算紧张时,DRaaS 也是一个不错的解决方案,因为其成本可能低于设置冗余恢复站点的成本。

实施灾难恢复解决方案

制定灾难恢复计划应首先对潜在灾难事件及其对 IT 系统和业务流程的影响进行风险评估。然后,在管理层的支持下,IT 和业务线团队应根据资产和系统的重要性对其进行排序,并根据所需的 RTO 和 RPO 以及可用预算分配 DR 策略来保护每个资产和系统。DR 计划是更广泛的业务连续性计划的一部分,用于缩短从灾难、网络攻击或技术错误导致的中断到恢复的时间。它们需要不断测试和更新。

传统灾难恢复与基于云的灾难恢复

传统灾难恢复依赖于位于公司自有数据中心的冗余服务器和存储设备,或将业务数据和应用程序实例备份到远程数据中心,因此一个地理区域的问题不太可能对远处的远程副本造成损害。相比之下,基于云的灾难恢复策略允许企业在公共云中存储较小或备用的应用程序实例副本,并在紧急情况下需要激活时通过添加计算资源来扩展它们,从而节省前期成本。企业还可以将关键任务应用程序分布在多个云区域。

灾难恢复工作流程、运行手册和计划

灾难恢复工作流程概述了在危机期间重启系统、恢复数据和通信所需的步骤和顺序。灾难恢复运行手册更详细地介绍了恢复过程和相关文档。它们提供了易于遵循的清单,用于在紧急情况下将数字运营转移到安全的地方,并且可以在紧急情况下简化测试或故障转移。工作流程和运行手册向企业展示了如何分阶段进行恢复,并确定了关键系统和服务水平协议。

灾难恢复工作流程包括风险评估、参与计划的委员会以及管理支持、恢复策略和测试程序。运行手册可能包含不同数据库、服务器和网络设备的详细清单,以便工作人员能够在时间压力下执行恢复步骤。

了解 DR 操作:故障转移和切换

灾难恢复操作是执行灾难恢复计划中每个预定步骤或任务的过程,这些步骤或任务是将组织的基础设施、数据库和应用程序恢复到完全运行状态所必需的。故障转移和切换这两个术语用于描述应用程序堆栈转换到不同位置的过程。

故障转移功能可在发生意外危机(包括断电和设备故障)时快速切换到备用系统。当应用程序、数据库和虚拟机崩溃,并且存储、数据和操作系统等资源处于不稳定状态时,就会使用故障转移功能。

切换是在计划停机维护期间有序地过渡到辅助系统。它允许关闭应用程序、数据库和虚拟机或服务器。在这种情况下,主区域和备用区域均正常运行,IT 运营人员将系统从一个区域移动到另一个区域进行维护或完成滚动升级。

基于云的灾难恢复的类型

云计算的灵活性使企业能够实施符合其需求的灾难恢复策略,而不会超出预算。混合云安排(其中一些计算资源在本地运行,一些在公共云中运行)可以降低灾难恢复的成本。云架构(包括微服务)允许软件组件在分布式虚拟服务器上运行,从而使它们不易受到多种灾难的影响。

跨区域灾难恢复解决方案

跨区域灾难恢复解决方案可保护组织免受飓风等中断的影响,这些中断会导致仅托管在一个数据中心的系统的访问中断。服务可以在受影响区域之外的容错、地理上分开且隔离的可用性域中运行。给定系统的整个应用程序堆栈(包括虚拟机、数据库和应用程序)可以转换到另一个位置的不同云区域。

混合云灾难恢复解决方案

混合云是一种流行的架构,它允许企业将一些工作负载从自己的数据中心转移到云基础设施。它也有助于灾难恢复。采用混合架构通常需要在虚拟服务器上运行工作负载,以便云数据中心内的底层硬件可以轻松更改而不会影响运营。

一旦工作负载虚拟化,当主数据中心不可用时,它们可以在云环境中重新启动。云数据中心可以成为地理上分散的数据中心阵列的经济替代方案。

多云灾难恢复解决方案

多云灾难恢复解决方案通过将应用程序的组件分布在两个或更多提供商的云基础架构中来保护应用程序和数据。此策略适合使用多个云提供商的企业,让他们可以为不同的应用程序设置恢复时间和点目标,同时管理成本并做出有关地理分布的决策。多云灾难恢复流程也可能源自服务和应用程序的开发方式。

使用 DRaaS 自动执行灾难恢复任务

灾难恢复编排和管理服务可以为应用程序堆栈的所有层(包括基础设施、数据库和中间件)提供全面的 DR。DRaaS 通过快速执行灾难恢复工作流来恢复不同区域的应用程序堆栈,从而减少人为错误并最大限度地缩短恢复时间。

Oracle 云基础设施 (OCI) 全栈灾难恢复让客户能够管理全球 OCI 区域之间的基础设施、数据库和应用程序的过渡。客户可以使用全栈灾难恢复,而无需重新设计或重新部署现有基础设施、数据库或应用程序,同时也无需专门的存储或管理服务器。

灾难恢复常见问题解答

为什么灾难恢复对企业很重要?

计划外的企业中断成本高昂。根据 IT 咨询机构 Uptime Institute 的数据,超过三分之二的计划外 IT 中断成本超过 10 万美元,而四分之一的计划外 IT 中断成本超过 100 万美元。

灾难恢复计划的关键组成部分是什么?

灾难恢复计划包括公司选择备份站点或在公共云中部署计算工作负载的策略,以便快速重启运营。组织还需要对关键任务和重要业务应用程序进行排序,并映射它们之间的依赖关系,这些依赖关系可能会阻碍软件恢复运行。

灾难恢复与数据备份有何不同?

将数据备份到远程服务器或站点是灾难恢复的一个方面,但现代灾难恢复计划涵盖的内容远不止这些。公司需要考虑平衡数据复制与服务可用性的技术策略,以控制成本,同时允许他们从小型备用实例重新启动应用程序。

云计算如何影响灾难恢复?

云技术可以通过将云区域划分为彼此隔离且具有容错能力的可用性域来在灾难期间提供保障。公司可以使用云供应商通常提供的设施和实用程序复制系统以实现高可用性和灾难恢复。

文章链接: https://www.mfisp.com/34676.html

文章标题:什么是灾难恢复?新手指南

文章版权:梦飞科技所发布的内容,部分为原创文章,转载请注明来源,网络转载文章如有侵权请联系我们!

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

点点赞赏,手留余香

给TA打赏
共0人
还没有人赞赏,快来当第一个赞赏的人吧!
    服务器vps推荐

    美国服务器容量规划与性能预测

    2025-2-5 15:37:49

    IDC云库服务器vps推荐

    比特币挖矿如何运作?新手指南

    2025-2-6 9:13:42

    0 条回复 A文章作者 M管理员
    如果喜欢,请评论一下~
    欢迎您,新朋友,感谢参与互动!
      暂无讨论,说说你的看法吧
    个人中心
    购物车
    优惠劵
    今日签到
    私信列表
    搜索

    梦飞科技 - 最新云主机促销服务器租用优惠